ارائه یک روش جدید یادگیری تقویتی پیوسته با تاکید بر تحلیل ریاضی

thesis
abstract

یکی از چالش های یادگیری تقویتی، عدم وجود الگوریتم های قابل اجرا در فضای حالت و عمل پیوسته است که دارای استدلال ریاضی باشند. در این پایان نامه سعی داریم با ارائه یک روش جدید یادگیری تقویتی پیوسته مبتنی بر معماری نقاد-تنها برای مسائل کنترل این چالش ها را برطرف کنیم. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات" با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده می شود. هر قاعده سیستم فازی داری چند تالی کاندید می باشد. هدف از آموزش، یافتن مناسب ترین تالی برای هر قاعده فازی است. با توجه به ساختاری که برای سیستم فازی در نظر گرفته شده است، این روش در زمره روش های یادگیری تقویتی فازی نقاد-تنها قرار دارد. توابع پایه حالت-عمل با توجه به شدت آتش و عملهای کاندید قواعد تعریف می شوند. روش تازه سازی پارامترهای وزن مربوط به تالی قواعد با استفاده از این توابع پایه و بهره گیری از الگوریتم تکرار سیاست کمترین مربعات، ارائه می شود. نشان داده می شود که توابع پایه حالت–عمل تعریف شده شرایط قضیه روش تکرار سیاست کمترین مربعات را برآورده می نمایند. لذا روش ارائه شده هم دارای تحلیل ریاضی است که به این وسیله یک کران خطا برای آن تعریف می شود و هم کارایی مناسبی دارد. نتایج شبیه سازی، حاکی از سرعت یادگیری بالاتر و نیز کیفیت عملکرد بهترِ روش تکرار سیاست کمترین مربعات فازی نسبت به دو روش مرتبط یادگیری کیوی فازی و یادگیری سارسای فازی می باشد. همچنین مزیت دیگر روش ارائه شده نسبت روش های مذکور، عدم نیاز به تعیین نرخ یادگیری است.

First 15 pages

Signup for downloading 15 first pages

Already have an account?login

similar resources

یک روش ترکیبی جدید یادگیری تقویتی فازی

در این مقاله یک روش جدید یادگیری تقویتی پیوسته برای مسائل کنترل ارائه می‌شود. روش ارائه شده از ترکیب روش "تکرار سیاست کمترین مربعات " با یک سیستم فازی سوگنوی مرتبه صفر حاصل شده و "تکرار سیاست کمترین مربعات فازی" نامیده شده است. در اینجا برای هر قاعده فازی تعدادی عمل نامزد در نظر گرفته می‌شود. هدف، یافتن مناسب‌ترین عمل نامزد (تالی) برای هر قاعده می‌باشد. با استفاده از بردار شدت آتش قواعد فازی و ...

full text

ارائه یک الگوریتم جدید برای پارک موازی خودرو مبتنی بر طراحی مسیر با انحنای پیوسته کلوتوئید

یکی از دستاورد‌های صنعت خودرو در سال‌های اخیر اضافه نمودن سیستم انجام پارک خودوند خودرو می‌باشد که این سیستم میتواند بدون دخالت یا با راهنمایی انسان خودرو را در محل مورد نظر پارک نماید. در این مقاله با ارایه یک الگوریتم جدید سعی شده تا با استفاده از خواص منحنی کلوتوئید، مسیر قابل پیمایشی برای حرکت خودرو به سمت جایگاه پارک طراحی شود. حرکت خودرو در این مسیرِ هموار به صورت پیوسته، با سرعت ثابت و ای...

full text

توسعه کنترلر هوشمند چراغ‌های راهنمایی بر پایه یادگیری تقویتی حالت پیوسته در محیط ترافیکی میکروسکوپیک

افزایش روزافزون تعداد خودروها و در پی آن ترافیک‌های سنگین شهری چالش بزرگی را برای کنترل بهینه ترافیک شهری برای مهندسین ایجاد کرده است. روش مناسب برای کنترل بهینه ترافیک هرچه باشد یقیناً باید وفق پذیر بوده تا بتواند ترافیک شهری را که دارای طبیعت پویا، پیچیده و تغییرپذیر است را به‌خوبی مدیریت نماید. در این راستا تمرکز اصلی تحقیق حاضر کنترل هوشمند و توزیع یافته چراغ‌های راهنمایی بر پایه یادگیری تقو...

full text

ارائه یک مبدل دو طرفه ایزوله جدید با جریان خروجی پیوسته

در این مقاله یک مبدل دو طرفه جدید ایزوله ارائه شده است. این مبدل از دو ترانسفورمر فوروارد و فلای بک تشکیل گردیده و تنها یک سوییچ در طرف اولیه و یک سوییچ در طرف ثانویه ترانسفورمر دارد. این مبدل به صورت PWM کنترل می‌گردد و از آنجایی که در هر دو حالت خاموش و روشن بودن سوییچها توان به خروجی منتقل می‌گردد، چگالی توان آن نسبت به مبدلهای قبلی بالاتر است. از طرفی مبدل مذکور قادر است که از هر دو طرف به ...

full text

ارائه یک مبدل دو طرفه ایزوله جدید با جریان خروجی پیوسته

در این مقاله یک مبدل دو طرفه جدید ایزوله ارائه شده است. این مبدل از دو ترانسفورمر فوروارد و فلای بک تشکیل گردیده و تنها یک سوییچ در طرف اولیه و یک سوییچ در طرف ثانویه ترانسفورمر دارد. این مبدل به صورت PWM کنترل می‌گردد و از آنجایی که در هر دو حالت خاموش و روشن بودن سوییچها توان به خروجی منتقل می‌گردد، چگالی توان آن نسبت به مبدلهای قبلی بالاتر است. از طرفی مبدل مذکور قادر است که از هر دو طرف به ...

full text

My Resources

Save resource for easier access later

Save to my library Already added to my library

{@ msg_add @}


document type: thesis

وزارت علوم، تحقیقات و فناوری - دانشگاه یزد - دانشکده برق و کامپیوتر

Hosted on Doprax cloud platform doprax.com

copyright © 2015-2023